Entrega Final - Series Cronológicas

Facultad de Ciencias Económicas y Administración - 2025 - UDeLaR

Author

Leandro Berrueta, Lucca Frachelle, Cecilia Waksman

Published

June 17, 2025

Se dispone de una serie mensual con la cantidad de clientes con deuda vigente en el Banco Santander en el período Diciembre - 2018 a Marzo - 2025.

Una primera visualización de la serie permite identificar una clara tendencia creciente a lo largo del tiempo, especialmente a partir de 2020, con un aumento significativo hacia 2024.

En principio no se logra reconocer un comportamiento estacional evidente o un patrón repetitivo a intervalos fijos en la serie.

La variabilidad parece aumentar ligeramente con el nivel de la serie, lo que podría sugerir la necesidad de aplicar una transformación logarítmica a modo de homogeneizar la Varianza de la serie. El uso de dicha transformación se evaluará más adelante tomando como insumo el comportamiento de los residuos.

1 Análisis Inicial

1.1 Gráfico de la Serie Temporal

1.2 Estadísticas Descriptivas

Estadísticas Descriptivas de la Serie de Cantidad de Personas con Deuda
Estadística Valor
Min. 332198
1st Qu. 353424
Median 398162
Mean 399505
3rd Qu. 435553
Max. 504989

2 Identificación del Modelo

2.1 Análisis en el Dominio del Tiempo

2.1.1 Función de Autocorrelación (FAC)

Se observa que la Función de Aucorrelación (FAC) decrece lentamente y de forma persistente, con coeficientes de autocorrelación significativos que se mantienen altos incluso en rezagos grandes y que, por ende, no se comportan de acuerdo al decaimiento exponencial que caracteriza a las series débilmente estacionarias1. Esto es un fuerte indicio de que la serie no es estacionaria.

Además, las autocorrelaciones significativas en rezagos altos sugieren la presencia de una tendencia, detalle claramente observable al inspeccionar el gráfico de la serie.

2.1.2 Función de Autocorrelación Parcial (FACP)

La Función de Aucorrelación Parcial (FACP) muestra un coeficiente significativo en el primer rezago y luego decae rápidamente, no habiendo otro rezago que resulte significativo al nivel de significación usual del 5%.

Esto podría sugerir un componente AR(1) si la serie fuera estacionaria. Sin embargo, dada la FAC planteada anteriormente, se concluye de este primer análisis del Dominio del Tiempo en la necesidad de aplicar, al menos, una primera diferencia regular a la serie.

2.2 Análisis en el Dominio de Frecuencias

Mediante el Periodograma Suavizado de la serie es posible respaldar la idea de que la misma presenta una tendencia que debería ser modelada.

En particular, las frecuencias más próximas a 0, y por ende las asociadas a ciclos de período próximo a infinito (el componente tendencial) explica la mayor parte de la variabilidad de la serie2.

2.3 Serie Diferenciada de acuerdo a la Primera Diferencia Regular

La primera diferencia regular tiene como resultado una serie que adquiere un comportamiento más próximo al estacionario que la serie original. En principio es posible observar que la tendencia ha sido eliminada y la Media parece ser constante. No obstante, la Varianza no se comporta de forma constante.

En el primer gráfico se puede observar que la serie se comporta de forma similar en todos los años disponibles, con la excepción de los años 2019 y 2024, en los meses de setiembre y octubre en particular. Esto puede ser un indicio de un posible outlier que requiera intervención.

Del segundo gráfico se destaca los meses de marzo, junio, septiembre y diciembre, que presentan medias mayores en comparación al resto.

2.4 FAC de la Serie Diferenciada

2.5 FACP de la Serie Diferenciada

Al analizar la Función de Autocorrelación de la serie de Cantidad de Personas con Deuda en Santander una vez aplicada la primera diferencia regular (\(d=1\)), se observa que, aunque la tendencia lineal ha sido eliminada (lo que se corrobora con los tests de Dickey-Fuller Aumentado y KPSS, CHEQUEAR UNA VEZ DADOS TEST DE RAICES UNITARIAS), persisten patrones de Autocorrelación significativos.

Específicamente, se nota la presencia de coeficientes significativos en el rezago 3, en el rezago 6 y en el rezago 9, con una rápida aproximación a las bandas de confianza3.

De esta manera se puede destacar que las observaciones se encuentran autocorrelacionadas con sus valores de 3, 6 y 9 meses atrás. Se decide entonces utlizar como primer modelo un SARIMA(3,1,0)(0,0,0).

2.6 Dominio de Frecuencias: Análisis del Espectro de la Serie Diferenciada

El Espectro también muestra como la primera diferencia elimina el componente tendencial, al presentar bajos valores en las frecuencias más bajas. No obstante, realza el peso de las frecuencias que se encuentran en torno a \(\omega_{\max} = 2.12\).

Considerando que \(\text{per}(\omega_j) = \frac{2\pi}{\omega_j}\), entonces se tiene que \(\text{per}(\omega_{\max}) \approx 3\), lo que quiere decir que la aplicación de la primera diferencia regular tuvo como resultado el incrementar la importancia de los ciclos que se repiten cada 3 meses a la hora de explicar la variabilidad de la serie.

Sea \(j\) el índice de la observación y \(T = 75\) la cantidad de observaciones que componen a la serie. Entonces la frecuencia j-ésima viene dada por \(\omega_j = \frac{2\pi j}{T}\) con período \(\text{per}(\omega_j) = \frac{2\pi}{\omega_j} = \frac{T}{j}\). Considerando la frecuencia de espectro más alto identificada en el párrago anterior se obtiene que4 \(j_{\max} = 25\) con período \(3\).

El hecho de que los ciclos que más explican la varianza sean los de período 3 puede ir de la mano con lo que indicaba Lucca de que entran deudores a los 3 meses (2+1).

2.7 Modelo:


z test of coefficients:

     Estimate Std. Error z value  Pr(>|z|)    
ar1 -0.159003   0.099751 -1.5940    0.1109    
ar2 -0.041909   0.101424 -0.4132    0.6795    
ar3  0.477172   0.099575  4.7921 1.651e-06 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

z test of coefficients:

     Estimate Std. Error z value Pr(>|z|)   
ar1  -0.21604    0.12151 -1.7779  0.07542 . 
ar2  -0.01337    0.12571 -0.1064  0.91530   
ar3   0.26001    0.12854  2.0229  0.04308 * 
sma1 -0.81781    0.30399 -2.6902  0.00714 **
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

2.8 Serie Diferenciada de acuerdo a la Primera Diferencia Regular y Primera Diferencia Estacional (Trimestral)

POR AHORA SE ESTÁ IGNORANDO LA ESTACIONALIDAD. A COMENTAR EL MIERCOLES CON SILVIA.

Del FAC y FACP parece ser un MA(1) para la parte estacional.

2.9 Gráfico de la Serie Diferenciada Estacional

2.10 FAC de la Serie Diferenciada (Regular y Estacional)

2.11 FACP de la Serie Diferenciada (Regular y Estacional)

3 Modelo Propuesto

3.1 Criterios de Información del Modelo

Criterios de Información del Modelo SARIMA(3,1,0)(0,0,0)
AIC AICc BIC
1533.778 1534.35 1543.048

3.2 Medidas de Error del Modelo

Medidas de Error del Modelo SARIMA(3,1,0)(0,0,0) en el Conjunto de Entrenamiento
Conjunto ME RMSE MAE MPE MAPE MASE ACF1
Training set 1648.211 6251.376 4466.594 0.3857666 1.108666 0.1693779 -0.1503563

3.3 Pruebas de Raíz Unitaria


############################################### 
# Augmented Dickey-Fuller Test Unit Root Test # 
############################################### 

Test regression none 


Call:
lm(formula = z.diff ~ z.lag.1 - 1 + z.diff.lag)

Residuals:
     Min       1Q   Median       3Q      Max 
-15658.0   -835.8   2283.8   5915.7  23094.3 

Coefficients:
           Estimate Std. Error t value Pr(>|t|)    
z.lag.1     -1.3993     0.1824  -7.670 6.83e-11 ***
z.diff.lag   0.1607     0.1179   1.363    0.177    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 7395 on 71 degrees of freedom
Multiple R-squared:  0.6134,    Adjusted R-squared:  0.6025 
F-statistic: 56.32 on 2 and 71 DF,  p-value: 2.232e-15


Value of test-statistic is: -7.67 

Critical values for test statistics: 
     1pct  5pct 10pct
tau1 -2.6 -1.95 -1.61

####################### 
# KPSS Unit Root Test # 
####################### 

Test is of type: mu with 3 lags. 

Value of test-statistic is: 0.3038 

Critical value for a significance level of: 
                10pct  5pct 2.5pct  1pct
critical values 0.347 0.463  0.574 0.739

Se rechaza Hipótesis Nula en DF entonces hay evidencia estadísticamente significativa de que la serie con primera diferencia no tiene una raíz unitaria.

No se rechaza la Hipótesis Nula en KPSS entonces no hay suficiente evidencia estadísticamente significativa para rechazar que la serie sea integrada de orden 0.

Por tanto no se aplica una nueva diferencia regular a la serie.

4 Diagnóstico de los Residuos del Modelo Propuesto

4.1 Gráfico de Residuos

[1] 3.168406
[1] 2021.917

4.2 FAC y FACP de los Residuos

4.3 Test de Ljung-Box

Resultados del Test de Ljung-Box
Test Estadistico p_value Metodo Parametro
Ljung-Box (Lag 10) 7.33047 0.3953011 Box-Ljung test 7
Ljung-Box (Lag 20) 17.09728 0.4477941 Box-Ljung test 17

4.4 Análisis de Homocedasticidad


    Box-Ljung test

data:  residuos_modelo_final_2
X-squared = 0.5411, df = 1, p-value = 0.462

4.5 Análisis de Normalidad

4.6 Tests de Normalidad

Resultados de los Tests de Normalidad
Test Estadistico p_value Metodo
Shapiro-Wilk 0.9574042 0.0121542 Shapiro-Wilk normality test
Jarque-Bera 11.7145691 0.0028590 Jarque Bera Test

Se rechaza la normalidad en el Modelo SARIMA(3,1,0)(0,0,0). Se procede a análisis de intervención.

En SARIMA(3,1,0)(0,1,1) no se rechaza.

5 Outliers - Intervención

Se reestima el modelo considerando outliers: setiembre 2019, diciembre 2021 y octubre 2023.

[1] "2019:09" "2019:12" "2021:12" "2022:12" "2023:10" "2024:06" "2024:12"
  type ind    time    coefhat     tstat
1   AO  10 2019:09  16638.658  6.857662
2   TC  13 2019:12  18572.955  6.781588
3   TC  37 2021:12  15948.571  6.029054
4   LS  49 2022:12   8784.406  2.992280
5   TC  59 2023:10 -15706.349 -4.964778
6   TC  67 2024:06  -8638.799 -3.271513
7   LS  73 2024:12  10666.621  3.639706
[1] 76  4
[1] 76
[1] 0.05263158

z test of coefficients:

        Estimate  Std. Error z value  Pr(>|z|)    
ar1  -1.5939e-01  1.0541e-01 -1.5121   0.13050    
ar2   2.2444e-01  1.0475e-01  2.1426   0.03214 *  
ar3   5.2476e-01  1.0374e-01  5.0582 4.231e-07 ***
AO10  1.7356e+04  3.0164e+03  5.7537 8.730e-09 ***
TC13  1.9202e+04  3.4280e+03  5.6015 2.125e-08 ***
TC37  1.6321e+04  3.3248e+03  4.9089 9.158e-07 ***
TC59 -1.5752e+04  3.8270e+03 -4.1161 3.853e-05 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

5.1 FAC y FACP de los Residuos

5.2 Test de Ljung-Box

Resultados del Test de Ljung-Box
Test Estadistico p_value Metodo Parametro
Ljung-Box (Lag 10) 21.29261 0.0033604 Box-Ljung test 7
Ljung-Box (Lag 20) 41.26781 0.0008547 Box-Ljung test 17

5.3 Análisis de Homocedasticidad

5.4 Análisis de Normalidad

Resultados de los Tests de Normalidad
Test Estadistico p_value Metodo
Shapiro-Wilk 0.9828505 0.3956828 Shapiro-Wilk normality test
Jarque-Bera 2.4066013 0.3002017 Jarque Bera Test

Se deja de rechazar la normalidad en los tests.

Pero se rechaza Ljung Box

6 Modelo 3:

[1] "2022:01" "2022:06" "2022:12" "2023:02" "2023:08" "2023:12" "2024:06"
[8] "2024:12"
  type ind    time   coefhat     tstat
1   TC  38 2022:01 -5069.533 -3.453036
2   LS  43 2022:06  7094.745  4.290008
3   LS  49 2022:12  6727.696  3.845202
4   AO  51 2023:02  6104.249  4.797737
5   AO  57 2023:08  9811.720  7.926741
6   AO  61 2023:12  5040.771  3.961292
7   TC  67 2024:06 -9308.356 -6.342200
8   LS  73 2024:12 10464.766  6.359279
[1] 76  5
[1] 76

z test of coefficients:

        Estimate  Std. Error z value  Pr(>|z|)    
ar1  -1.0493e-01  1.0295e-01 -1.0193 0.3080568    
ar2   1.9335e-01  9.8273e-02  1.9675 0.0491303 *  
ar3   5.5212e-01  1.0206e-01  5.4098 6.310e-08 ***
AO10  1.7342e+04  2.8496e+03  6.0860 1.158e-09 ***
TC13  1.9085e+04  3.2967e+03  5.7891 7.076e-09 ***
TC37  1.6455e+04  3.1676e+03  5.1950 2.048e-07 ***
TC59 -1.2506e+04  3.4857e+03 -3.5878 0.0003335 ***
TC61  9.0155e+03  3.2786e+03  2.7498 0.0059632 ** 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

6.1 FAC y FACP de los Residuos

6.2 Test de Ljung-Box

Resultados del Test de Ljung-Box
Test Estadistico p_value Metodo Parametro
Ljung-Box (Lag 10) 20.34708 0.0048668 Box-Ljung test 7
Ljung-Box (Lag 20) 32.26472 0.0139476 Box-Ljung test 17

6.3 Análisis de Homocedasticidad

6.4 Análisis de Normalidad

Resultados de los Tests de Normalidad
Test Estadistico p_value Metodo
Shapiro-Wilk 0.9889655 0.7576727 Shapiro-Wilk normality test
Jarque-Bera 0.0875857 0.9571522 Jarque Bera Test

Footnotes

  1. En el presente trabajo se utilizará como sinónimos “estacionariedad en sentido débil”, “estacionariedad en covarianza” y “estacionariedad”, al igual que se hizo durante el desarrollo del curso.↩︎

  2. Corresponde resaltar, sin embargo, que la relación entre el área que se encuentra por debajo del Espectro/Periodograma y la Varianza de la serie se plantea para series estacionarias, propiedad que claramente no caracteriza a la serie en tratamiento.↩︎

  3. El coeficiente asociado al rezago 12 también es significativo, aunque como su magnitud es mayor a la del coeficiente del rezago 9 se decide, en principio, trabajar con los rezagos \(k = 3, 6, 9\).↩︎

  4. Dado \(\omega_j = 2.12 = \frac{2\pi j}{75}\) y despejando \(j\) se obtiene \(j_{\max} \approx 25\).↩︎